查看原文
其他

中文文本分析相关资源汇总

大邓 大邓和他的Python 2022-07-09

中文文本数据逻辑性分析库

中文文本数据(挖掘)分析相关资源汇总


一、Python中文数据处理库




项目地址简介
jieba分词https://github.com/fxsjy/jieba中文分词库
中文复杂事件的概念与显式模式https://github.com/thunderhit/eventextraction

中文复合事件的概念与显式模式

,包括条件事件、因果事件、

顺承事件、反转事件等事件抽取,

并形成事理图谱。

中文信息抽取工具https://github.com/fighting41love/cocoNLP

从中文文本数据中抽取

出结构化的信息,

如时间、手机号、运营商、

邮箱、地址、人名、身份证

图片识别https://github.com/breezedeus/cnocr识别出图片中的中文文本
label-studio多媒体标注工具https://github.com/heartexlabs/label-studio

可对文本、图片、音频

视频数进行标注

中文可读性https://github.com/cdimascio/py-readability-metrics

可读性算法包括Flesch-Kincaid

Grade Level, Gunning Fog, 

ARI, Dale Chall, SMOG

Synonymshttps://github.com/huyingxi/Synonyms用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。
SpaCy 中文模型https://github.com/howl-anderson/Chinesemodelsfor_SpaCySpaCy 中文模型
Scattertext可视化https://github.com/JasonKessler/scattertext

能否分析出某个类别的文

本与其他文本的用词差异;

简单修改后可支持中文

HarvestText文本挖掘和预处理工具https://github.com/blmoistawinde/HarvestText

文本挖掘和预处理工具(文本清洗

、新词发现、情感分析、

实体识别链接、句法分析等),

无监督或弱监督(种子词)方法

开源金融大数据https://github.com/PKUJohnson/OpenData股票、基金、期货、宏观等金融数据。还有非金融数据,如空气质量、高考录取分、院线票房等非金融数据
中日韩分词https://github.com/jeongukjae/python-mecab中日韩分词工具
汉字数字(中文数字)-阿拉伯数字转换工具https://github.com/Wall-ee/chinese2digits

最好的汉字数字(中文数字)

阿拉伯数转换工具。



二、中文语料




资源名地址介绍

微信公众号

语料库

https://github.com/SophonPlus/ChineseNlpCorpus

搜集、整理、发布 中文 自然语言处

理语料/数据集,与 有志之士 共同 

促进 中文 自然语言处理 的 发展。

中文公司名

语料库

https://github.com/wainshine/Company-Names-Corpus

公司简称,缩写,品牌词,企业名

。可用于中文分词、机构名实体识别。

微信公众号

语料库

https://github.com/nonamestreet/weixinpubliccorpus

数据量3G;纯文本,每行一篇,JSON格式

。name是微信公众号名字,

account是微信公众号ID,title是题目,

content是正文。

多语言

音频数据

https://voice.mozilla.org/en/datasets

多种语言音频数据,包括来自42,000名贡献

者超过1,400小时的语音样本,涵github

知识问答https://github.com/liuhuanyong/MiningZhiDaoQACorpus

百度知道问答语料库,包括超过580万的问题

,938万的答案,5800个分类标签。

基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。

中文

任务基准测评

https://github.com/CLUEbenchmark/CLUE

中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜


三、中文知识图谱




社交网络分析大家都听过,社交网络分析使知识图谱中的一个领域。
项目名地址简介
知识图谱合集https://github.com/husthuke/awesome-knowledge-graph整理知识图谱相关学习资料
文档图谱信息可视化https://github.com/liuhuanyong/TextGrapher

输入一篇文档,将文档进行关键信息提取

,进行结构化,并最终组织成图谱组织形式,

形成对文章语义信息的图谱化展示。

事件三元组抽取https://github.com/liuhuanyong/EventTriplesExtraction基于依存句法与语义角色标注的事件三元组抽取
中文人物关系抽取https://github.com/liuhuanyong/PersonRelationKnowledgeGraph

中文人物关系图谱构建;基于知识库的数据回标

基于远程监督与bootstrapping方法的人物关系抽取 ;

基于知识图谱的知识问答等应用

证券知识图谱https://github.com/lemonhu/stock-knowledge-graph

利用网络上公开的数据构建一个小型的证券知识图谱/知识库

大规模中文知识图谱数据https://github.com/ownthink/KnowledgeGraphData

1.4亿中文知识图谱

,百度网盘(链接: 

https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 

提取码: 3hpp )注:

解压密码是:https://www.ownthink.com/

京东商品知识图谱https://github.com/liuhuanyong/ProductKnowledgeGraph

基于京东网站的1300种商品上下级概念约10万商品品牌,约65万品牌销售关系,商品描述维度等知识库,基于该知识库可以支持商品属性库构建,商品销售问答,品牌物品生产等知识查询服务,也可用于情感分析等下游应用.

重大事件抽取https://github.com/liuhuanyong/ImportantEventExtractor

针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要新闻

近期文章




Python核心技术与实战

Python全栈-60天精通之路

Python网络爬虫与文本数据分析

中文文本数据逻辑性分析库

Python数据分析相关学习资源汇总帖

漂亮~pandas可以无缝衔接Bokeh

综述:文本分析在市场营销研究中的应用

Lazy Prices公司年报内容变动碰上股价偷懒

用python帮你生产指定内容的word文档

2020年B站跨年晚会弹幕内容分析

YelpDaset: 酒店管理类数据集10+G

NRC词语情绪词典和词语色彩词典

Loughran&McDonald金融文本情感分析库

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存